查看原文
其他

视频课程:WGCNA,多样本,多分组,多临床信息的数据挖掘利器。

果子 果子学生信 2023-06-15

今天我们发布第5个教程,就是WGCNA。
那么这个技能有什么用呢?

对于两组数据,比如加药和不加药的芯片数据,或者测序数据,如果我们要找到跟加药相关的通路或者基因,我们可以做差异分析然后进行GO分析KEGG分析,或者直接使用GSEA分析。可以参考下面的帖子。
来完成你的生信作业,这是最有诚意的GEO数据库教程
很有诚意!人人可做的转录组数据下游分析

那么如果我有多个分组怎么找出每个组的特异分子呢?
比如,加药后1小时,6小时,12小时,24小时都测了转录组,我现在想知道每个时间段特异表达的基因,该怎么做呢?
可以批量的两两求差异,然后慢慢排查,也可以用时序RNAseq的分析技术,找出某一类基因,他随着时间慢慢增高,也可以找出某一类基因,随着时间慢慢降低。

但是还是不够直接,高效,我们来看看高手的玩法。

WGCNA 辅助科学研究

在这篇Nature Medicine中,作者为了探究缺血再灌注损伤中发挥重要作用的分子,就造了个模型,在不同时间取了样本

取了样本之后就做了WGCNA分析,这个分析主要做两个事情:
第一,会根据当前纳入的所有样本,把基因按照相关性进行聚类,形成多个基因模块,
在每个模块中的基因,有高度的相关性,至少表达模式类似,说明他们有内在的联系。

第二,把这些模块,跟表型信息求相关性,在这里表型信息就是时间。
最后会得到在某个时间点最相关的模块

此刻,我们就可以从纷繁复杂的数据中,定位到跟我们关心的表型最相关的基因上面去了。
而这篇文章就是根据这个数据,找到了很创新的分子,并且在之后上下游的探索中,不断使用WGCNA指导实验,大胆假设,小心求证。我觉得就方法而言,是WGCNA在科研领域很好的运用。

不想做实验可以用WGCNA么?

今年四月,神经科学领域大咖,埃默里大学(Emory University) Allan I. Levey教授,测了健康人和阿尔茨海默症患者的2000多个脑组织蛋白,结果也发在了Nature Medicine上面

因为人多,临床信息就多,不再仅仅是健康和正常的信息了,还有不同脑区,年龄,性别等信息,怎么从2000多个人的样本以及多个临床信息中找到关键的分子呢?

嗯,WGCNA走一波。

得到上面结果呢:
WGCNA算法生成13个蛋白质共表达网络。其中M4(与糖代谢相关的蛋白质)网络模块显示出最强的AD病理和认知障碍相关性。

分子该模块中的基因,发现富含小胶质细胞和星形胶质细胞的蛋白标志物,意味着AD的发生与发生在小胶质细胞和星形胶质细胞中的糖代谢改变紧密相关。

不是土豪能不能用WGCNA?

当然,按照官方的说法就是,15个样本就可以用了

We do not recommend attempting WGCNA on a data set consisting of fewer than 15 samples

这个样本对于稍微像样的课题组,真不是个事情。
来看看这一篇有点让我迷惑的文章。

他收集了24个大脑样本,12个因为感染死亡,12个不是感染死亡。
然后做了个WGCNA,就发了16分,而且是在2020年。
但就测序成本来说,1000一个样,就是2万5不到。
这个,我想都不敢想,我问了认识的人,问是什么原理,他们说,可能就是样本珍贵吧。
更诡异的是,这篇文章只有两个table,没有图。

有懂的朋友,给科普一下吧。

自己没有数据能不能用WGCNA?

我觉得这个问题,很过分,就跟空手套白狼一样。
但是,真的有人套了。
来看看这篇接近10分的文章

按照作者的说法就是,所有数据来自于网络

得到了一些模块和性状的联系后,分析了感兴趣的基因,打了嘴炮,发了文章

你这边还在为毕业的文章发愁睡不着,他那边就用一个电脑,喝着咖啡发10分文章了。

行了,你就说普通人怎么用?

只要你满足以下条件就可以用:
1.样本大于15个。
这个简直不是问题,对于那些纯数据挖掘的人而言,TCGA所有肿瘤都满足这个要求。
况且刚才那个作者,从GEO上面搞了200多个非肿瘤样本也用起来了。

更炸裂的是:单细胞技术的出现,彻底解决了样本的问题,因为现在,一个细胞就是一个样本。
一个10x 单细胞就是成千上万个样本啊。

2.如果你的实验中有多个分组或者多个临床表型
从实验设计来说,跟Nature Medicine类似,可以多个时间位点,多个处理手段。
如果是多个小鼠,这些小鼠可以记录每个的年龄,性别,体重,血糖等信息,而这些信息都可以纳入分析了。

如果从TCGA数据挖掘的角度,那就更好办了,
第一,他本身就是人的数据,有对应的人的各种临床信息
第二,各个癌症本身就可以有亚组,比如乳腺癌的PAM50,以及各个肿瘤分期
第三,这些分类数据是可以添加的
比如,突变与否,免疫浸润高度,干性强度,模型打分高低。。

3.有理有据的缩小数据挖掘的起始数量。
这个是目前看到的数据挖掘文章里面的用法
就是用WGCNA先挖掘出一些感兴趣的模块,比如转移相关的
然后用这个模块里面的基因进行后续分析:GO,KEGG,相关性,模型构建。

这个确实有点泛滥,但是比自己设置阈值删除要讲道理一点。
当然,如果你自己有样本,我觉得是最好的。

问一句,WGCNA好不好学?

好学。这个属于理解起来困难,但是用起来简单的技能。
官网有很详细的教程,十分详细
https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/

如果你在简书,微信上面检索WGCNA,也有很多中文教程。
花点时间,学起来不难。

现在咋们多了一个选择,果子也出了一个教程,
首先把官网的教程演示一遍,
然后给出几个实战的例子并谈谈注意事项,
最后探索并拓展一下WGCNA的其他应用。
WGCNA本质上就是计算两次相关性,下游分析也依赖相关性,而这个是我们的强项啊。

课程跟其他人的有什么区别?
因人而异吧,已有的教程很多,有的人喜欢听声音,而且是果子的声音,有的人不喜欢,各取所需就行了。

课程支持长期更新,更新的视频在答疑群发放。
有兴趣的朋友,扫描下面的图片购买,课程设置一个星期的优惠。周五发货,在自己的微店收取。

阅读原文也有购买链接。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存